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摘要 ”宏基 因 组 研究 的 思想 与 技术 推动 了 微生物 组 的 兴起 ， 积 累 了 丰富 的 微生物 基因 组 以 
及 健康 、 动 植物 和 环境 相关 的 微生物 宏基 因 组 数据 ， 形 成 了 具备 一 定 规模 和 影响 力 的 数据 
库 、 标 准 化 方法 与 分 析 工 具 。 大 多 数 平台 聚焦 于 为 项 目 或 特定 类 型 的 微生物 菌 群 提供 数据 
支撑 ， 难 以 满足 更 深入 全 面 的 微生物 生物 学 研究 需求 。 文 章 建 议 采用 综合 聚焦 微生物 分 类 
单元 总 和 的 微生物 系统 组 与 聚焦 特定 生态 位 微生物 种 群 总 和 的 微生物 组 的 思路 ， 建 设 综合 
性 的 微生物 组 数据 仓库 ， 整 合 微生物 分 类 、 进 化 、 生 态 以 及 相关 “组 学 ”数据 与 信息 。 在 
此 基础 上 ， 进 一 步 综 合生 命 科 学 基础 研究 和 系统 合成 生物 学 研究 的 数据 ， 支 撑 经 高 水 平 质 
控 的 综合 性 参考 数据 库 、 标 准 化 的 拼接 与 注释 以 及 一 流 的 数据 汇 交 、 搜 索 分 享 、 深 度 学 习 
和 分 析 挖 气 方 法 的 研究 开发 。 由 此 ， 亦 将 进一步 集成 大 型 微生物 组 项 目的 元 数据 及 数据 ， 


形成 数据 综合 完整 、 管 理 安全 高 效 ， 服 务 功能 完备 的 微生物 组 大 数据 中 心 。 
关键 词 ”微生物 组 ， 微 生物 系统 组 ， 分 类 ， 生 态 ， 合 成 生物 学 
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FLA 2005 年 10 月 成 立国 际 宏基 因 组 联盟 以 来 ， 多 个 国家 启动 了 人 类 微生物 组 相关 的 研 
究 计 划 。 包 括 美国 的 人 类 微生物 组 计划 HMPM 以 及 后 续 项 目 iHMP™， 欧 盟 的 MetaHIT™ 以 及 
圩 国 也 启动 了 微生物 组 多 样 性 项 目 。 此 外 ， 国 
修复 为 主要 目的 科研 相关 的 微生物 组 项 目 。 


后 续 项 目 MetaGenoPolis， 标 准 项 目 IHMS 叫 ， 
际 上 开展 了 大 量 以 人 类 健康 疾病 及 环境 检测 、 
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这 些 项 目的 实施 ， 推 动 了 专业 数据 库 和 参考 数据 库 、 标 
准 化 与 质量 控制 、 数 据 分 析 挖 掘 工具 等 平台 性 支撑 工作 
的 发 展 。 

当前 的 微生物 组 项 目 公 开 产 出 的 数据 大 多 属于 基础 
数据 ， 可 以 通过 EMG 中 、NCBI、JGI 等 第 三 方 的 数据 中 心 
BAG, WAN TaraOceans" , MetaHIT?, HMP, GOLD! 
项 目的 数据 ， 相 关 数 据 资源 发 布 情况 见 表 1。 有 些 数据 资 
源 平 台 ， 除 了 提供 数据 访问 功能 外 ， 还 提供 在 线 分 析 注 释 
功能 ， 例 如 JGI IMG/M"!, MG-RAST"'fIl iMicrobe ( http:// 
imicrobe.us/ ) 等 平台 。 

MIxS 是 GSC 制定 的 序列 最 简 描 述 信息 标准 集 ， 其 
中 MIMS 是 MIGS ff] dE fis fe^, MIMS 标准 为 不 同 
的 环境 制定 了 通用 的 “环境 包 ” 供 各 个 项 目 共用 ， 其 
中 包括 空气 、 建 筑 内 环境 、 人 类 相关 、 人 类 口腔 、 人 
类 肠 道 、 人 类 皮肤 等 15 个 环境 包 ， 已 经 成 为 NCBI、 
MG-RASTM 和 GOLD" 等 主流 数据 库 的 样本 描述 指南 。 
M2B31" 被 用 于 海洋 生物 多 样 性 相关 的 分 子 生物 学 样品 元 
基因 组 测序 项 目的 标准 规范 。 
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当前 国际 上 的 微生物 组 数据 平台 主要 围绕 参考 数据 
目录 和 元 基因 组 数据 ， 为 某 种 或 某 类 生态 环境 的 微生物 
组 研究 (项目 导 向 为 主 ) 提供 功能 注释 、 群 落 物 种 结构 
解析 等 基础 性 分 析 服 务 ， 因 此 ， 只 能 说 是 某 一 环境 的 微 
生物 “分 子 生态 学 ”与 元 基因 组 的 研究 平台 。 对 微生物 
学 其 他 研究， 如 微生物 系统 分 类 、 综 合 性 生态 分 析 、 元 
件 库 构 建 和 细胞 工厂 设计 ， 只 能 提供 数据 下 载 之 类 的 低 
层次 支撑 ， 难 以 提供 更 直接 的 在 线 计 算 甚 至 算法 测试 环 
境 的 支撑 。 此 外 ， 部 分 平台 的 数据 仅 覆 盖 特 定 项 目 ， 数 
据 覆 盖 度 不 够 充分 ， 整 合 度 不 够 综合 ， 需 要 研究 人 员 花 
费 大 量 时 间 来 发 现 、 获 取 、 整 合 数据 资源 、 信 息 资 源 和 
知识 资源 ， 难 以 实现 简便 易 行 的 目标 。 

因此 ， 我 们 认为 ， 现 在 通用 的 “微生物 组 ”的 概 
念 ， 即 “微生物 组 ” ( microbiome ) 是 存在 于 特定 环境 
(生态 位 ，biotype ) 里 的 多 种 类 微生物 群 (microbiota ) 
的 所 有 成 员 及 其 遗传 信息 ( 主要 是 meta/megagenome ) 
和 生命 功能 的 集合 ; 需要 与 一 个 更 宽泛 的 “微生物 系统 
组 ” (microbiophylome ) 概念 相 联系 。 它 是 “所 有 ” 微 


R1 常见 的 微生物 组 数据 库 - 


数据 库 EMG IMG/M GOLD iMicrobe MG-RAST NCBI 
建 库 时 间 2013 2005 2015 2008 
建 库 单位 EBI 加 利 福 尼 亚 大 学 加 利 福 尼 亚 大 学 亚利桑那 大 学 芝加哥 大 学 NCBI 
国家 英国 美国 Ed 美国 美国 国 
项 >1000 258 (公开 >1000 261 >15 000 
样本 量 >60000 Sols (ASR) >20000 5171 >400 000 
网 站 s aee E EA http://imicrobe.us/ ias via 
数据 访问 在 网 站 E E f 是 是 E 
数据 访问 网 址 ENA 网 站 JGI 网 站 JGI 网 站 本 数据 库 网 站 本 数据 库 网 站 NCBI 
a Aee aaa A E E e A yere 网 站 页 面 、FTP ”SRA 下 载 工具 
数据 镜像 服务 、FTP 
开放 程度 部 分 公开 部 分 公开 部 分 公 玫 公开 部 分 公 玫 “a 
是 否 提供 在 线 分 析 是 是 是 是 是 否 
提供 可 视 化 工具 是 是 是 是 是 a 
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生物 个 体 (microbe ) 以 及 各 种 微生物 群体 (microbiota ) 
成 员 的 遗传 信息 ( 主要 是 多 种 “组 学 /Omics” 信 息 ) 及 
相关 生物 学 结构 功能 的 集合 。 整 合 这 两 个 概念 下 的 微 生 
物 组 数据 ， 建 设 具 有 全 局 搜索 功能 的 数据 仓库 ， 通 过 不 
断 发 展 的 高 质量 拼接 注释 技术 与 研究 服务 平台 ， 形 成 高 
标准 的 质量 控制 ; 进而 实现 高 通 量 数据 安全 有 效 的 汇 交 
共享 与 分 析 挖 气 。 

上 述 “ 微 生物 组 数据 仓库 ”应 该 涵盖 微生物 分 类 、 
进化 、 生 态 三 类 数据 ， 作 为 这 三 大 类 数据 的 管理 共享 平 
台 ， 是 为 建立 高 质量 的 数据 标准 和 数据 质 控 流 程 开 展 长 
期 发 展 的 研究 的 基石 ;而 在 提供 高 质量 数据 标准 和 数据 
质 控 流程 的 基础 之 上 ， 数 据 仓 库 又 将 进一步 全 面 收集 国 
际 大 型 项 目 产 出 数据 的 元 数据 ， 并 按 需 集成 原始 数据 ， 
形成 数据 完整 、 功 能 完备 的 微生物 组 大 数据 中 心 。 这 个 
大 数据 中 心 是 包括 微生物 组 研究 项 目的 所 有 微生物 学 研 
究 数据 的 基础 性 平台 ， 将 提供 微生物 组 系统 分 类 学 工具 
包 、 微 生物 组 系统 生态 学 工具 包 、 微 生物 组 系统 合成 生 
物 学 工具 包 等 挖掘 开发 的 工具 系统 (图 1) 。 


wh, 
基因 组 构建 AY 

[s 
比较 基因 组 5 


基因 组 分 类 微生物 组 代谢 


化 微生物 组 


进化 基因 组 


新 元 件 /分 子 设计 
模块 网 络 构建 


一 -一 一 AT vt WA 应 转 
微生物 组 系统 合成 生物 学 工具 包 下 E -celVE -life AINA 
Microbi ome SysSynKit J calito LS pel 


检测 


图 1 微生物 组 大 数据 中 心 建议 实施 图 


1 微生物 组 系统 分 类 学 

微生物 系统 分 类 是 微生物 组 研究 的 理论 基础 之 一 ， 
经 历 了 形态 分 类 、 化 学 分 类 、 分 子 分 类 3 个 阶段 ， 最 终 
形成 了 多 相 分 类 这 一 技术 与 理论 体系 ""。16S rRNA 系 
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统 发 育 提 供 了 现行 分 类 系统 的 基础 框架 ,但 是 在 较 低级 
分 类 单元 上 的 低 分 辩 率 一 直 受 到 学 界 的 诉 病 。 新 一 代 高 
通 量 测序 技术 正在 深刻 地 影响 着 微生物 系统 分 类 学 的 发 
展 ， 在 对 新 物种 的 多 相 分 类 鉴定 中 整合 基因 组 数据 是 分 
类 学 发 展 的 趋势 '”。 微 生物 基因 组 高 度 的 结构 与 基因 多 
样 性 以 及 横向 基因 转移 使 得 对 进化 历史 的 解析 问题 变 得 
更 加 困难 和 复杂 。 将 基因 组 纳入 多 相 分 类 体系 仍 需要 
一 个 过 程 "”。 

16S rRNA 之 类 的 标记 分 子 已 经 发 展 了 较为 完善 的 
大 型 特征 序列 数据 库 AI RDP! Greengenes''*!, Silva” 
等 。 但 是 由 于 自然 界 中 存在 着 为 数 众 多 的 未 培养 微生物 ， 
大 量 测序 数据 仍 无 法 确定 分 类 地 位 ， 要 了 解 目标 微生物 的 
功能 仍然 需要 依托 纯 培 养 微生物 基因 组 数据 作为 参考 。 一 
定 程 度 上 ， 微 生物 组 研究 理论 意义 上 的 瓶颈 是 微生物 分 离 
纯 培 养 技术 与 完善 的 分 类 系统 。 大 量 的 微生物 组 研究 项 目 
产 出 的 数据 构成 了 进行 元 分 析 的 参考 数据 库 ， 给 研究 者 提 
供 了 背景 信息 ， 有 助 于 通过 元 分 析 找 到 新 结论 。 

16S TRNA 基因 之 所 以 成 为 现代 分 子 分 类 的 黄金 分 
子 ， 除 了 功能 保守 性 以 及 适度 的 进化 速率 外 ， 更 重要 的 
是 几 十 年 积累 的 数据 库 资 源 ， 目 前 大 部 分 已 鉴定 的 微 生 
物 物种 都 有 对 应 的 基因 序列 信息 。 基 于 基因 组 数据 
在 分 类 学 中 的 应 用 同样 需要 一 个 数据 平台 ， 便 于 数据 的 
存储 和 分 析 。 国 际 上 已 有 的 基因 组 数据 子 库 包含 大 量 宛 
余数 据 ， 不 利于 基因 组 的 比较 分 析 ， 更 缺乏 分 类 学 数据 
支撑 。 因 此 ， 和 急需 一 个 整合 的 数据 库 平 台 ， 在 分 类 学 上 
有 效 描述 物种 基因 组 和 分 类 鉴定 表 型 数据 ， 并 提供 数据 
分 析 流 程 。 通 过 统一 的 优化 标准 和 分 析 流 程 对 每 个 基因 
组 序列 进行 基因 预测 、 功 能 注释 、 代 谢 网 络 重建 ， 支 持 
深入 挖掘 基因 组 信息 ; 整合 分 类 表 型 数据 便于 研究 者 查 
询 、 比 较 分 析 不 同 物种 的 特征 ， 开 展 表 型 的 遗传 机 制 等 
比较 基因 组 学 人 研究 工作 。 


2 微生物 组 系统 生态 学 


元 基因 组 是 普遍 用 于 目前 不 可 培养 的 微生物 研究 的 


201703.00383v1 


chinaXiv 


菌 群 结构 与 功能 的 代表 性 方法 ， 全 长 DNA 测序 和 16S 
IDNA 是 典型 的 两 种 技术 手段 。 这 两 种 技术 手段 的 结合 ， 
使 得 我 们 对 一 些 重要 微生物 群落 的 结构 和 功能 的 认识 迅 
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Mw 


中 的 特征 向 量 比较 ， 确 定 序列 归 类 路。MEGAN™" 借 
助 NCBI 分 类 数据 库 ， 展 示 了 单一 或 者 多 个 元 基因 组 中 各 
分 的 进化 位 置 和 分 类 组 成 。 


Mw 


速 取 得 了 突破 ”"™。 面 向 这 两 种 方法 产 出 的 数据 ， 可 以 开 
展 质量 控制 、 序 列 归 类 与 功能 划分 、 集 成 方法 等 生物 信 
息 分 析 ( 表 2 ) 。 

(1) 元 基因 组 序列 质量 控制 涉及 到 一 系列 的 短 序列 
质量 分 析 与 过 滤 。 最 重要 的 序列 质量 控制 步骤 包括 : 短 
序列 质量 分 析 ， 短 序列 修剪 ， 符 合体 短 序 列 的 去 除 等 。 
短 序 列 质量 控制 可 以 通过 MothurP3 和 QC-ChainP Etk 
件 包 来 实现 。 

( 2) 根据 测序 数据 的 质量 差异 和 序列 长 度 ， 测 序 
数据 可 以 被 归 类 到 “ 门 ”“ 纲 ”“ 目 ”“ 科 ”“ 属 ” 
中 不 同 精确 度 的 层次 。 序 列 归 类 (classification ) 可 以 
被 分 为 序列 比 对 (similarity-based ) 分 析 和 序列 成 分 
(composition-based ) 分 析 。 序 列 比 对 分 析 受 限于 已 知 归 
类 和 功能 的 序列 ，90% 以 上 的 微生物 群落 测序 数据 无 法 
通过 这 种 办 法 进行 归 类 。 序 列 成 分 分 析 的 方法 依赖 于 序 


(3) 元 基因 组 的 研究 对 象 可 以 分 为 群落 物种 结构 和 
群落 功能 结构 两 方面 。 近 年 来 ， 以 16SrRNA 生物 标记 为 
EMATER, fill MOTHUR'", QIME”, Parallel- 
METAP'^&, PR TETERA E, B 
保守 性 和 多 拷贝 性 也 使 其 应 用 范围 受到 限制 。 在 功能 结 
构 上 ， 元 基因 组 学 的 基本 研究 策略 包括 大 片段 DNA 的 拼 
接 、 基 因 预 测 、 基 因 注 释 以 及 代谢 通路 分 析 等 。 此 外 ， 
考虑 微生物 不 同 群落 的 特点 ( 基于 群落 元 数据 ) ， 可 以 
将 所 有 数据 分 为 两 个 或 以 上 的 组 (class ) ， 进 而 开展 群 
落 生 物 标记 的 识别 和 上 鉴定， 开展 基 于 微生物 群落 全 基因 
组 测序 数据 的 群落 功能 特征 标记 挖掘 。 

(4) 基于 单一 类 型 的 数据 的 挖 握 越 来 越 无 法 满足 
微生物 群落 研究 的 需求 。 代 谢 组 、 单 细胞 数据 也 逐步 与 
元 基因 组 数据 整合 。 在 群落 代谢 物 组 方面 ， 小 分 子 代谢 
物 、 核 磁 共振 标准 谱 图 、 标 准 质谱 谱 图 ， 以 及 各 代谢 物 


列 GC 含量 、 编 码 区 比例 等 特定 特征 ， 通 过 和 已 知 基因 的 相关 物化 信息 ， 相 关 数 据 分 析 方法 也 正在 发 展 过 程 
m2 代表 性 的 生物 信息 学 分 析 平 台 
软件 ( 平台 ) 数据 库 分 析 数据 对 象 分 析 策略 分 析 结果 
MEGAN NCBI 16S rRNA 序列 比 对 分 析 物种 结构 ， 丰 度 和 功能 分 类 ， 以 及 物种 之 间 的 比较 
ConStrains 整合 数据 库 REAL 亨 列 比 对 和 序列 成 分 分 析 物种 结构 ， 丰 度 
MetaPhlAn 整合 数据 库 基因 组 序列 比 对 和 序列 成 分 分 析 物种 结构 ， 丰 度 
PICRUSt 整合 数据 库 宏基 因 组 ，16S rRNA 亨 列 比 对 和 序列 成 分 分 析 物种 结构 和 功能 分 类 
antiSMASH 整合 数据 库 基因 组 序列 比 对 和 序列 成 分 分 析 BGC 分 析 
CARMA Pfam 16S rRNA 序列 比 对 分 析 物种 结构 和 功能 分 类 
Sort-ITEMS NCBI 16S rRNA 序列 比 对 分 析 物种 结构 和 功能 分 类 
Phyloshop Greengenes 全 基因 组 ，16S rRNA 序列 比 对 分 析 物种 结构 和 功能 分 类 
UniFrac NCBI 16S rRNA 序列 比 对 分 析 物种 结构 ， 丰 度 和 功能 分 类 ， 以 及 物种 之 间 的 比较 
QIIME 168 rRNA 序列 比 对 分 析 物种 结构 ， 丰 度 和 功能 分 类 
PhyloPythia NCBI 16S rRNA 序列 成 分 分 析 物种 结构 和 功能 分 类 
MG-RAST SS 全 基因 组 ，16S rRNA 序列 比 对 和 序列 成 分 分 析 物种 结构 ， 丰 度 和 功能 分 类 ， 以 及 物种 之 间 的 比较 
CAMERA 整合 数据 全 基因 组 ，16S rRNA 序列 比 对 和 序列 成 分 分 析 。 ”物种 结构 ， 丰 度 和 功能 分 类 ， 以 及 物种 之 间 的 比较 
Galaxy 整合 数据 库 全 基因 组 ，16S rRNA 序列 比 对 和 序列 成 分 分 析 。 ”物种 结构 ， 丰 度 和 功能 分 类 ， 以 及 物种 之 间 的 比较 
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中 。 在 单 细胞 数据 分 析 方 面 ， 主 要 包括 单 细胞 基因 组 、 
转录 组 和 表征 信和 号。 以 上 数据 分 别 从 全 局 和 个 体 、 遗 传 
和 表 观 、 结 构 和 功能 等 不 同 角度 为 微生物 群落 研究 提供 
支持 。 

从 以 元 基因 组 为 代表 的 微生物 系统 生态 学 相关 的 工 
具 研 究 来 看 ， 除 了 工具 自身 的 算法 和 性 能 外 ， 工 具 背 后 
的 数据 集 的 范围 和 质量 会 严重 影响 工具 的 准确 性 。 构 建 
统一 的 数据 仓库 ， 整 理 完整 的 特征 序列 、 参 考 基 因 组 、 
功能 基因 组 等 微生物 系统 组 ， 以 及 典型 微生物 生态 群落 
元 基因 组 与 代谢 组 等 数据 集 ， 形 成 立体 的 完整 的 微生物 
组 数据 矩阵， 开展 元 基因 组 拼接 、 注 释 、 群 体 相互 作用 
与 网 络 、 微 生物 生态 比较 等 研究 ， 形 成 微生物 组 系统 生 
态 学 工具 ， 发 展 生 态 微生物 组 、 微 生物 组 生理 与 代谢 、 
进化 微生物 组 、 化 学 微生物 组 等 特色 微生物 生态 数据 平 


人 
Hs 


3 微生物 组 系统 合成 生物 学 


通过 高 通 量 测序 的 元 基因 组 数据 挖掘 天 然 产 物 合成 
基因 ， 主 要 通过 三 种 方式 : (1) 单 类 化 合 物 的 基因 簇 注 
FE, "n PRISM” fI GRAPEP", (2) 单 物 种 的 基因 艇 注 
释 ， 如 StreptomeDB™!, (3) 多 物种 多 化 合 物 基因 簇 注 
释 ， 如 anti SMASH'"。 基 因 尺 度 的 基因 簇 功能 注释 ， 只 
占 基 因数 据 的 一 部 分 。 基 因 组 尺度 的 挖掘 不 仅 能 够 发 现 
新 颖 的 天 然 产 物 ， 而 且 还 能 发 现 相 关 合成 途径 ， 为 生物 
合成 研究 提供 了 数据 基础 。 

多 个 研究 小 组 开发 了 不 同 的 微生物 细胞 工厂 相关 的 
分 子 结构 生物 转化 以 及 催化 元 件数 据 库 ， 包 括 生物 合成 
反应 和 催化 元 件数 据 库 BRENDA""， 分 子 结构 转化 数据 
f Rhea), KEGG 分 子 结构 转化 数据 "等 。Rxnfinder 研 
究 小 组 基于 文献 ， 开 发 了 数据 驱动 型 一 站 式 生 物 合 成 新 
有 反应、 新 酶 、 新 途径 设计 技术 体系 ""。 这 些 数 据 库 从 不 
同 层 次 和 角度 包含 了 丰富 的 合成 生物 学 资源 ， 但 是 以 单 
个 微生物 为 研究 单位 的 生物 学 数据 库 还 未 全 面 建立 。 

为 了 能 够 高 效 并 合理 地 开发 设计 目标 化 合 物 的 生物 
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合成 路 径 ， 已 经 发 展 了 多 个 基于 原子 匹配 ， 或 者 反应 规 
则 的 路 径 设计 方法 等 ,但 是 极 少 以 底盘 细胞 为 研究 
单位 。 微 生物 细胞 工厂 的 设计 成 为 生物 合成 领域 研究 的 
重点 中， 产生 了 多 个 基于 底盘 细胞 的 目标 化 合 物 合成 路 
径 设 计 的 方法 ， 如 FMMC 、PHTICI 、MREC 等 。 随 着 基 
因 组 测序 技术 的 不 断 发 展 ， 以 基因 组 尺度 矢量 代谢 网 络 
模型 和 基于 通 量 平衡 分 析 方 法 (FBA ) "的 模型 优化 方 
法 为 基础 ， 实 现 合成 目标 化 合 物 路 径 的 设计 ， 优 化 以 及 
产量 评估 是 目前 模拟 细胞 工厂 设计 的 男 一 个 重要 研究 方 
向 。 

从 合成 生物 学 的 发 展 进程 来 看 ， 基 因 组 尺度 的 合成 
设计 正在 越 来 越 重 要 。 依 托 微生物 组 的 元 基因 组 与 功能 
基因 组 、 转 录 组 、 代 谢 组 等 数据 平台 ， 建 立 合 成 生物 学 
的 微生物 资源 库 ， 集 成 天 然 产物 、 调 控 催 化 与 转运 等 元 
件 、 反 应 通路 与 网 络 、 基 因 线 路 与 基因 簇 等 数据 。 人 研究 
底盘 细胞 及 其 代谢 模型 等 全 基因 组 尺度 上 的 分 析 工 具 ， 
发 现 新 的 贯通 海量 高 噪音 的 微生物 组 数据 与 高 易 用 性 的 
基因 簇 和 基因 线路 ， 形 成 微生物 组 系统 合成 生物 学 工具 
包 。 


4 微生物 健康 大 数据 应 用 


元 基因 组 研究 手段 已 经 渗透 到 环境 生物 监测 与 治 
gU 和 极端 环境 ，、 营 养 与 健康 等 以 利用 或 克服 复杂 
微生物 群落 及 其 产物 为 目的 的 科学 领域 。 在 医学 领域 ， 
了 解 人 体 微生物 群落 结构 与 功能 的 变化 有 助 于 把 握 人 类 
相关 健康 动态 ， 尤 其 是 在 人 体 口腔 环境 "1、 肠 道 及 其 消 
化 机 制 中 、 皮 肤 敏感 度 “! 等 方面 。 在 生物 能 源 领 域 ， 复 
杂 的 生物 能 源 过 程 如 纤维 素 乙 醇 的 转化 与 发 醇 中 、 沼 气 
的 生成 等 ， 都 是 依赖 于 微生物 群落 的 作用 而 完成 。 

在 开展 健康 、 环 境 、 营 养 等 方面 的 微生物 组 应 用 
， 人 微生物 组 大 数据 中 心 以 中 立 的 第 三 方 服务 平台 的 方 
式 ， 不 仅 能 够 为 研究 和 应 用 提供 数据 资源 、 分 析 挖 掘 方 
、 知 识 库 等 方面 的 支持 ， 而 且 能 够 形成 公共 数据 与 公 
方法 全 私有 数据 在 线 分 析 并 保存 在 公共 平台 一 择 时 
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与 潜在 合作 方 合作 ， 点 对 点 交换 数据 私有 数据 公开 发 

布 ， 回 馈 公 共 平 台 的 良性 发 展 模式 。 致谢 本 文 撰写 过 程 中 ， 得 到 了 中 科 院 深圳 先进 技术 院 合 
成 生物 学 工程 研究 中 心 马 迎 飞 研究 员 、 中 科 院 巴 斯 德 所 
郝 沛 研究 员 的 大 力 支 持 ， 特 此 致谢 。 


5 实践 与 思考 


我 们 按照 微生物 组 大 数据 中 心 的 设计 理念 ， 开 展 
了 前 期 工作 ， 在 组 学 数据 百科 全 书 NODE ( http://www. 参考 文献 
biosino.org/node/ ) 的 支持 下 ， 建 立 了 微生物 组 数据 专区 
( http:/www.biosino.org/microbiome ) 和 微生物 组 分 析 平 
台 (http://www.biosino.org/microap ) 。 微 生物 组 数据 专 
区 主要 提供 微生物 组 的 公共 组 学 数据 的 浏览 、 查 询 与 发 
布 ， 并 选择 有 代表 性 的 数据 作为 参 比 数据 ， 为 微生物 组 
分 析 平 台 提供 支撑 。 微 生物 组 分 析 平 台 依 赖 于 数据 专区 
中 的 参考 数据 ， 提 供 元 基因 组 功能 分 析 和 生态 菌 群 的 结 
构 分 析 ， 后 续 将 直接 支持 用 户 多 种 途径 的 全 基因 组 测序 
数据 分 析 ， 探 索 私 有 数据 在 公共 平台 上 的 保护 与 利用 模 
us 

当然 ， 微 生物 组 大 数据 中 心 不 是 微生物 组 研究 工作 
的 全 部 ， 也 不 是 微生物 学 研究 的 全 部 ， 甚 至 不 是 微生物 
组 研究 支撑 平台 的 全 部 。 因 此 ， 在 建设 微生物 组 大 数据 
中 心 的 同时 ， 要 特别 强调 数据 中 心 与 各 种 “实体 库 ” 和 
创新 技术 的 互动 。 在 微生物 系统 组 方面 ， 要 特别 注意 与 
微生物 菌 种 库 的 结合 、 协 同 发 展 。 在 微生物 组 方面 ， 要 
与 微生物 组 样本 库 ( 包括 菌 群 库 和 DNA 库 等 样本 ) 结 
合 、 协 同 发 展 。 而 在 与 合成 生物 学 元 件 库 建设 结合 过 程 
中 ，in silico、in vitro 和 in vivo 技 术 的 结合 ， 以 工程 学 理 
念 带 来 的 设计 -合成 -测试 概念 与 数据 的 引入 ， 都 将 为 我 
们 跨 入 电子 细胞 E? ( electoral/engineered ) -cell 和 X/M- 
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Abstract It was the scientific concept and related technology of metagenomics that initiated the microbiome research. These microbiome 
research projects conducted globally have led to the acquisition huge amount of data and data sets of microbial genomes related to human 


health, animals, plants and environments. Consequently, various kinds of microbiome databases and analytical platforms are booming. 


chinaXiv 


However, besides the designed specific project-oriented status for some of the databases, most of the current microbiome data platforms merely 
focus on the development of reference data catalog and metagenome data sets, and mainly support the studies of"molecular ecology"aspect 
of microbiomes and/or the metagenome of a specific biotype. Thus, commonly expected applications in data integration-dependent mega- 
analysis, genomic information-based microbial taxonomy or comprehensive functional bioparts mining are largely hindered by lacking of 
proper data resources or sophisticated bioinformaticians capable of handling the complicated tasks.In this review, we introduce the concept 
of Microbiophylome, which is the sum of all microbes and member organisms of all kinds of microbiota with their genetic and multiple life- 
omics information as well as their related biological structural/functional information. Comparing to the conventional Microbiome, which 
is the sum of all member microbes of various microbiota in a special ecological biotype with their genetic, mainly metagenome information 
and related biological function, Microbiophylome emphasizes the total information of every individual taxon of the whole microbial world. In 
other words, with respect to microbiology as an academic discipline, Microbiophylome is concerned more about the a -phase (taxonomy) and 
B-phase (phylogeny) of microbial biology while Microbiome is concerned more about the y-phase (ecology), employing the knowledge of a- 
and B-phases. With the integration of the concepts of Microbiome and Microbiophylome, we suggest to establish a comprehensive microbiome 


data warehouse as a hub to integrate the data of microbial taxonomy, evolution and ecology as well as their related omics research. Via further 
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integration of the data of basic research in life science and systems and synthetic biology, this data warehouse will support the development of 
comprehensive and QA/QC controlled reference databases, high quality standards-guided assembly and annotation and state of the art tools 
for data integration, searching, shared analysis and deep mining to facilitate future academic research and biotechnology R&D activities in 
microbiology and related fields. In addition, providing high-quality data standard and data SOPs for safe data integration and sharing, this 
data warehouse will be attractive for further systematic collection of meta-data of large-scale international projects. We have started this effort 
aiming at the eventual establishment of a microbiome big data center with complete and integrative data storage, safe and efficiency-guaranteed 
data management as well as comprehensive and user-friendly data service functions. 
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